iT邦幫忙

2022 iThome 鐵人賽

DAY 16
1
AI & Data

Python網路爬蟲系列 第 16

Day16 –爬蟲的類型

  • 分享至 

  • xImage
  •  

爬蟲根據結構、技術和目的區分:

通用網路爬蟲:

主要是搜集每個網站的特色,爬取的範圍和數據量也比較龐大。
也可以稱為搜尋引擎。
例如google, yahoo, 百度……

聚焦網路爬蟲:

又叫做主題網路爬蟲,主要是依據需求,選擇性地爬取頁面。

增量網路爬蟲:

可以減少數據下載量、節省時間和儲存空間,主要只爬取更新的頁面,但也因此需要比較複雜的演算法,目前較少在使用。

深層網路爬蟲:

爬取較深層的網頁,例如像是提交表單後才會出現的網頁訊息、需要帳號密碼頁面……這些無法從靜態的網頁取得的資訊。

  • 雖然這邊分為四種類型,但聚焦網路爬蟲、增量網路爬蟲、深層網路爬蟲都是有目的並執行定向爬取數據,可以分為一大類。

總結:

  • 爬蟲可以分為通用網路爬蟲和聚焦網路爬蟲。
  • 通用網路爬蟲可被稱為搜尋引擎。
  • 一般所稱的網路爬蟲都是聚焦網路爬蟲。

上一篇
Day15 –Python應用在json檔案
下一篇
Day17 –網路爬蟲PTT - 1(跳過cookies)
系列文
Python網路爬蟲30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言